扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
Martin Leach在大数据工作方面非常忙碌。他曾作为MIT和哈佛大学联合开办的Broad研究所的CIO,在那里,他要负责13PB数据的存储,使用超级计算机进行计算。他和他的团队为人类基因图绘制工作做出了卓越贡献。
在研究所之前,他团队所支持的研究小组为医药巨头默克公司研发。现在,他的新职务是生物技术公司Biogen 的IT研发副总裁,目前,他一些数据科学家编入团队。这只团队通过大数据分析处理保障Biogen 公司的研发。
在他离开非营利组织Broad生物研究所前,我们的编辑采访到Leach。他介绍了CIO在大数据方面所面临的困境,以及处理大数据所需要的技术和能力。Leach表示,企业大数据分析的投资已经由最初的200万美元上升到400万美元,很少专家愿意使用开源工具工作。而最不被重视的数据科学家往往能为企业找到真正有用的数据。
问:你曾经作为CIO们的咨询顾问,在企业建设大数据基础设施时提供建议,你通常都会有哪些建议?
Leach:最开始的阶段是要确认企业的大数据项目计划是什么。做这个项目的最大需求是什么,这是开始阶段最重要的问题,绝不是考虑什么技术或者需要采购什么项目。
问:在Broad研究所的时候,他们做大数据项目最大的需求是什么?
Leach:当时最大的需求是解决内部数据的产生、消化以及存储问题。那个时候在公共机构,比如Broad和私人机构之间是有一个竞争的,看谁能做出人类基因图。因为有这样的外部驱动力,所以,我们考虑的都是如何把项目做的更快一些。我们当时要么慢下来,要么放弃这个工程,要么寻找到更快项目实施方法。
这对我来说,无疑是个挑战,尤其我对生物技术至今都了解不多。他们将一些实验外包出去,并将生成的数据传输过来,突然间,他们就会有数以万亿字节的数据需要传输,他们会有这样的疑问:“我该往那种硬盘里存放数据?我如何获取这些数据?我计算这些数据时要放置在哪里?我又该如何去计算呢?” 我在一群生命科学家那里看到的是他们对数据处理有非常强烈的需求,他们的第一个问题是:“我如何处理这些数据?又该放在哪里?”
问:那他们存放在哪里?
Leach: 很多公司会放置在公司内部。但有些公司会放在云端,但这些数据量很小也不会常用。生命科学领域的数据通常包括遗传学与基因组学资料、药物信息或者病人记录,如果存放在防火墙之外会有很多忧虑。
所以,当你确定为什么需要数据后,下一个工作就是考虑如何存放他们。再下一个就是如何利用计算机处理数据。那是需要在内部计算机内存储处理呢,还是放置在云端,比如亚马逊上,需要时再拿回来处理?这就涉及到大家的另一个猜想,为什么数据需要首先在内部处理呢?
问:获取数据简单吗?
Leach:真正的获取过程并不简单。考虑到传输速度,有些公司会从云端传输。有些则使用硬盘传输。这里面涉及到很多问题,比如,你从波士顿获取数据,但你的数据中心在北卡罗来纳州,我需要解决的问题是,我该如何将几百亿字节的数据通过公司网络传到服务器上,为此我还要做哪些工作?
问:公司如何处理数据的获取?
Leach:有些情况下,研究基于硬盘上的一堆数据,企业就会消极对待传往服务器上的数据。有些情况,企业试图在内部网络中使用数据,进而影响内部网络,因为他们会将数据转移到典型的企业数据网络而不是数据中心。另外一些则是和IT部门紧密合作。
这部分取决于企业其他部门如何与 IT部门合作。我认为网络限速器是为了让其他部门更好地与IT部门合作,也是为了保证IT部门的足够灵活性。这类的项目并不是传统意义上标准的IT基础设施。尝试在Oracle数据库上研发大数据,Oracle会建议你购买一些外部硬件,但你需要数据库专家,这些专家不仅懂得常规数据库关系,也要了解NoSQL、CouchDB、 MongoDB等等。
接下来就是如何找到一群高素质的人才,他们可熟练运用现在的开源技术产品,比如Hadoop、OpenStack之类。人才对于团队来说至关重要,我常常听到同行们的抱怨:“我该去哪里找到真正的千里马?”
问:CIO们会去哪些领域寻找人才?
Leach:我从eBay的CTO那里了解到,一个重要的领域就是经济学家。经济学家喜欢在数据中寻找金矿,他们也喜欢用数据去解决深层次问题。有一群突然意识到大数据的经济学家会说:哇,我们从来没有处理过这种水平的数据。
问:所以,你只能找那些喜欢数据挖掘避过愿意使用开源工具的人?
Leach:我曾经看到一群物理学家在大数据领域工作。Hadron Collider里的工作人员每天需要沉浸在在机器产生的PBS数量级的数据中。经济学家、物理学家以及喜欢衍生工具的人,都是典型的数据分析师:他们喜欢数据。我将去经济学家领域找到合适的人才,因为我之前不太重视他们。
问:一些公司对大数据最大的误解是什么?
Leach:我认为很多公司都不会意识到他们如何在一开始就小心翼翼的对待数据。你在数据管理、注解、组织方面花的时间少了,就会影响你如何使用数据。我们从一份统计里看到,当我们的项目完成五个月后,就没有人再去关注数据里。你两年来的数据怎么处理?删掉他?还是重新组织?鉴于目前数据存储成本下降,我们可以存储这些数据。
问:这或许就是你谈到的,当人们开始面对大数据时,往往会变得很短视?
Leach:不仅是IT部门的短视,连数据搜集者也是这样。IT部门负责数据搜集,从IT的角度来看,IT部门是不会考虑长远的,但搜集者也是仅仅关注当下的数据,或关注他们搜集到的数据。
问:为了实现大数据的目标,你需要收集足够多的数据,你手机的越多,做出的预测也越精准,可以这样理解吗?
Leach:是的,如果你真的能把握的话,大数据仅仅“大”而已。
婵犵數濮烽弫鍛婃叏閻戝鈧倹绂掔€n亞鍔﹀銈嗗坊閸嬫捇鏌涢悢閿嬪仴闁糕斁鍋撳銈嗗坊閸嬫挾绱撳鍜冭含妤犵偛鍟灒閻犲洩灏欑粣鐐烘⒑瑜版帒浜伴柛鎾寸洴閹儳煤椤忓應鎷洪梻鍌氱墛閸楁洟宕奸妷銉ф煣濠电姴锕ょ€氼參宕h箛鏃傜瘈濠电姴鍊绘晶娑㈡煕鐎c劌濡介柕鍥у瀵粙濡歌閳ь剚甯¢弻鐔兼寠婢跺﹥娈婚梺鍝勭灱閸犳牠骞冨⿰鍫濈厸闁稿本绋撹ぐ瀣煟鎼淬値娼愭繛鍙壝悾婵堢矙鐠恒劍娈鹃梺鍓插亝濞叉牠鎮″☉銏$厱閻忕偛澧介惌瀣箾閸喐鍊愭慨濠勭帛閹峰懐绮电€n亝鐣伴梻浣规偠閸斿宕¢崘鑼殾闁靛繈鍊曢崘鈧銈嗗姂閸庡崬鐨梻鍌欑劍鐎笛呯矙閹寸姭鍋撳鐓庡籍鐎规洑鍗冲畷鍗炍熼梹鎰泿闂備線娼ч悧鍡涘箠鎼淬垺鍙忔い鎺嗗亾闁宠鍨块崺銉╁幢濡炲墽鍑规繝鐢靛О閸ㄦ椽鏁嬮柧鑽ゅ仦娣囧﹪濡堕崨顔兼闂佺ǹ顑呴崐鍦崲濞戙垹骞㈡俊顖濐嚙绾板秹鏌f惔銏e妞わ妇鏁诲璇差吋閸偅顎囬梻浣告啞閹搁箖宕版惔顭戞晪闁挎繂顦介弫鍡椼€掑顒婂姛闁活厽顨嗙换娑㈠箻閺夋垹鍔伴梺绋款儐閹瑰洭寮婚敐鍛婵炲棙鍔曠壕鎶芥⒑閸濆嫭婀扮紒瀣灴閸╃偤骞嬮敃鈧婵囥亜閺囩偞鍣洪柍璇诧功缁辨捇宕掑▎鎴濆濡炪們鍔岄幊姗€骞嗗畝鍕<闁绘劙娼х粊锕傛煙閸忚偐鏆橀柛鏂跨焸閹偤宕归鐘辩盎闂佸湱鍎ら崹鐢割敂閳哄懏鍊垫慨姗嗗墻濡插綊鏌曢崶褍顏€殿喕绮欐俊姝岊槼闁革絻鍎崇槐鎾存媴缁涘娈┑鈽嗗亝缁诲牆顕f繝姘亜缁炬媽椴搁弲锝夋偡濠婂啰效闁诡喗锕㈤幊鐘活敆閸屾粣绱查梺鍝勵槸閻楀嫰宕濇惔锝囦笉闁绘劗鍎ら悡娑㈡倶閻愯泛袚闁哥姵锕㈤弻鈩冩媴閻熸澘顫掗悗瑙勬礈閸犳牠銆佸鈧幃鈺呮惞椤愩倝鎷婚梻鍌氬€峰ù鍥х暦閸偅鍙忛柟鎯板Г閳锋梻鈧箍鍎遍ˇ顖炲垂閸岀偞鐓㈡俊顖滃皑缁辨岸鏌ㄥ┑鍡╂Ц缂佲偓鐎n偁浜滈柡宥冨妿閳藉绻涢崼鐔虹煉婵﹨娅e☉鐢稿川椤斾勘鈧劕顪冮妶搴′簼婵炶尙鍠栧畷娲焵椤掍降浜滈柟鍝勬娴滈箖姊洪幐搴㈢┛濠碘€虫搐鍗遍柟鐗堟緲缁秹鏌涢锝囩畼妞ゆ挻妞藉铏圭磼濡搫顫岄悗娈垮櫘閸撴瑨鐏冮梺鍛婁緱閸犳岸宕㈤幖浣光拺闁告挻褰冩禍浠嬫煕鐎n亜顏柟顔斤耿閺佸啴宕掑☉姘箞闂佽鍑界紞鍡涘磻閸℃ɑ娅犳い鎺戝€荤壕濂告煕鐏炲墽鈽夌紒妞﹀洦鐓欓柣鐔告緲椤忣參鏌熼悡搴㈣础闁瑰弶鎸冲畷鐔兼濞戞瑦鐝¢梻鍌氬€搁崐椋庣矆娓氣偓楠炴牠顢曢妶鍌氫壕婵ê宕崢瀵糕偓瑙勬礀缂嶅﹪寮婚崱妤婂悑闁告侗鍨界槐閬嶆煟鎼达紕鐣柛搴ㄤ憾钘濆ù鍏兼綑绾捐法鈧箍鍎遍ˇ浼存偂閺囥垺鐓涢柛銉e劚婵$厧顭胯閸ㄤ即婀侀梺缁樓圭粔顕€顢旈崼鐔虹暢闂傚倷鐒︾€笛呮崲閸屾娑樜旈崨顓犲幒闂佸搫娲㈤崹娲偂閸愵亝鍠愭繝濠傜墕缁€鍫熸叏濡寧纭鹃柦鍐枛閺屾洘绻涜鐎氱兘宕戦妸鈺傗拺缂備焦锚婵洦銇勯弴銊ュ籍闁糕斂鍨藉鎾閳ユ枼鍋撻悽鍛婄叆婵犻潧妫楅埀顒傛嚀閳诲秹宕堕妸锝勭盎闂婎偄娲︾粙鎰板箟妤e啯鐓涢悘鐐靛亾缁€瀣偓瑙勬礋娴滃爼銆佸鈧幃銏$附婢跺澶�